transformer

首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言模型(VLM)“锁死” ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性

模型 ntu transformer qa 掩码 2025-10-31 16:26  2